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Automatic summarization in artificial intelligence via unsupervised learning: TextRank 
Abstract 


Automatic summarization 1s the process of summarizing a text document with a computer 
program to create a summary that captures the most important points of the original document. 
Technologies that can make a coherent abstract take into account variables such as length, writing 
style, and syntax. Machine leaming is a subfield of artificial intelligence dedicated to 
understanding and building methods that allow machines to "learn". One key phrase extraction 
algorithm is TextRank, which exploits the structure of the text itself to determine key phrases that 
appear "central" to the text. 
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Rezumat 


Rezumarea automată este procesul de sumarizare a unui document text cu un program de 
calculator pentru a crea un rezumat care să rețină cele mai importante puncte ale documentului 
original. Tehnologiile care pot face un rezumat coerent iau în considerare variabile precum 
lungimea, stilul de scriere şi sintaxa. Învăţarea automată este un subdomeniu al inteligenţei 
artificiale dedicat înțelegerii și construirii de metode care permit mașinilor să "înveţe”. Un algoritm 
de extragere a frazelor cheie este TextRank, careexploatează structura textului în sine pentru a 
determina expresiile cheie care apar „centrale” pentru text. 
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Rezumarea automată 


Rezumarea automată (1) este procesul de sumarizare a unui document text cu un program 
de calculator pentru a crea un rezumat care să rețină cele mai importante puncte ale documentului 
original. Tehnologiile care pot face un rezumat coerent iau în considerare variabile precum 
lungimea, stilul de scriere și sintaxa. Rezumarea automată a datelor face parte din învăţarea 
automată şi extragerea datelor. Ideea principală a rezumatului este de a găsi un subset reprezentativ 
de date, care conţine informațiile întregului set. Tehnologiile de rezumat sunt folosite astăzi într- 
un număr mare de sectoare din industrie. Un exemplu de utilizare a tehnologiei de rezumare îl 
reprezintă motoarele de căutare, cum ar fi Google. Alte exemple includ rezumatul documentelor, 
rezumatul colecției de imagini şi rezumatul video. Rezumatul documentului încearcă să creeze 
automat un sumar reprezentativ sau un rezumat al întregului document, prin găsirea celor mai 
informative propoziţii. În mod similar, în rezumarea imaginilor, sistemul găsește imaginile cele 
mai reprezentative și importante (sau proeminente). În mod similar, în videoclipurile pentru 
consumatori a'1 dori să eliminaţi scenele plictisitoare sau repetitive şi să extrageți o versiune mult 
mai scurtă şi concisă a videoclipului. Acest lucru este, de asemenea, important, să zicem 
pentru videoclipurile de supraveghere, în care s-ar putea să doriți să extrageți numai evenimente 
importante din videoclipul înregistrat, din moment ce cea mai mare parte a videoclipului poate fi 
neinteresantă, fără a se întâmpla nimic. Pe măsură ce problema supraîncărcării informaţionale 
creşte şi pe măsură ce cantitatea de date crește, interesul pentru rezumarea automată creşte şi el. 

În general, există două abordări ale rezumării automate: extracția şi abstracția. Metodele 
extractive funcționează prin selectarea unui subset de cuvinte, fraze sau propoziţii existente în 


textul original pentru a forma rezumatul. În schimb, metodele abstractive construiesc o 
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reprezentare semantică internă și apoi folosesc tehnici de generare a limbajului natural pentru a 
crea un rezumat care este mai aproape de ce poate genera un om. Un astfel de rezumat poate 
conține cuvinte care nu sunt prezente în mod explicit în original. Cercetarea metodelor abstractive 
este un domeniu de cercetare din ce în ce mai important şi activ; cu toate acestea, din cauza 
constrângerilor de complexitate, cercetarea până în prezent s-a concentrat în primul rând pe 
metodele extractive. În unele domenii de aplicaţie, rezumatul extractiv are mai mult sens. Exemple 


dintre acestea includ rezumatul colecțiilor de imagini şi rezumatul videoclipurilor. 


Învăţarea automată 


(Maşinile kernel sunt utilizate pentru a calcula funcții neliniar separabile într-o funcție de dimensiune mai mare 
separabilă liniar. Credit: Alisneaky/Wikimedia, licenţa CCO 1.0) 


Învăţarea automată (2) este un domeniu dedicat înţelegerii şi construirii de metode care 
permit maşinilor să „înveţe” - adică metode care valorifică datele pentru a îmbunătăţi performanța 
computerului la un set de sarcini.[1] Este văzut ca un subdomeniu larg al inteligenţei artificiale 
[2]. 

Algoritmii de învăţare automată construiesc un model bazat pe date eşantion, cunoscut sub 
numele de date de antrenament, pentru a face predicții sau decizii fără a fi programat în mod 
explicit pentru a face acest lucru.[3] Algoritmii de învăţare automată sunt utilizaţi într-o mare 
varietate de aplicaţii, cum ar fi în medicină, filtrarea e-mailului, recunoașterea vorbirii, agricultură 
ŞI viziunea computerizată, unde este dificil sau imposibil să se dezvolte algoritmi convenționali 


pentru a îndeplini sarcinile necesare.[4][5] ] 
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Un subset al învățării automate este strâns legat de statisticile computaţionale, care se 
concentrează pe realizarea de predicții folosind computere, dar nu toată învăţarea automată este 
învăţare statistică. Studiul optimizării matematice oferă metode, teorii şi domenii de aplicare în 
domeniul învățării automate. Mineritul datelor este un domeniu de studiu conex, concentrându-se 
pe analiza exploratorie a datelor prin învăţare nesupravegheată.[7][8] 

Unele implementări ale învățării automate folosesc datele şi rețelele neuronale într-un mod 
care imită funcţionarea unui creier biologic.[9][10] 

În aplicarea sa în problemele de afaceri, învățarea automată este denumită și analitica 
predictivă. 

Algoritmii de învăţare funcționează pe baza faptului că strategiile, algoritmii și inferenţele 
care au funcționat bine în trecut vor continua să funcționeze bine în viitor. Aceste concluzii pot fi 
uneori evidente, cum ar fi „deoarece soarele a răsărit în fiecare dimineaţă în ultimele 10.000 de 
zile, probabil că va răsări şi mâine dimineață”. Alteori, acestea pot fi mai nuanţate, cum ar fi „X% 
din familii au specii separate geografic, cu variante de culoare, deci există o şansă de Y% ca lebede 
negre nedescoperite să existe”.[11] 

Programele de învăţare automată pot îndeplini sarcini fără a fi programate în mod explicit 
pentru a face acest lucru. Implică ideea unor calculatoare care învaţă din datele furnizate astfel 
încât să îndeplinească anumite sarcini. Pentru sarcini simple atribuite computerelor, este posibil să 
se programeze algoritmi care spun maşinii cum să execute toți paşii necesari pentru a rezolva 
problema în cauză; din partea computerului, nu este nevoie de învăţare. Pentru sarcini mai 
avansate, poate fi o provocare pentru un om să creeze manual algoritmii necesari. În practică, se 
poate dovedi mai eficient să ajute maşina să-şi dezvolte propriul algoritm, mai degrabă decât ca 
programatorii umani să specifice fiecare pas necesar.[12] 

Disciplina învățării automate foloseşte diverse abordări pentru a învăţa computerele să 
îndeplinească sarcini în care nu este disponibil un algoritm pe deplin satisfăcător. În cazurile în 
care există un număr mare de răspunsuri potenţiale, o abordare este de a eticheta unele dintre 
răspunsurile corecte ca fiind valide. Acestea pot fi apoi folosite ca date de antrenament pentru 
computer pentru a îmbunătăţi algoritmul (algoritmii) pe care îl foloseşte pentru a determina 
răspunsurile corecte. De exemplu, pentru a instrui un sistem pentru sarcina de recunoaștere digitală 


a caracterelor, a fost adesea folosit setul de date MNIST de cifre scrise de mână.[ 12] 
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Abordări de învățare nesupravegheată: TextRank 


Un algoritm de extragere a frazelor cheie este TextRank. (1) În timp ce metodele 
supravegheate au câteva proprietăți frumoase, cum ar fi capacitatea de a produce reguli 
interpretabile pentru caracteristicile care caracterizează o expresie cheie, ele necesită, de 
asemenea, o cantitate mare de date de antrenament. Sunt necesare multe documente cu expresii 
cheie cunoscute. În plus, antrenamentul pe un anumit domeniu tinde să personalizeze procesul de 
extracție la acel domeniu, astfel încât clasificatorul rezultat nu este neapărat portabil, aşa cum 
demonstrează unele dintre rezultatele lui Turney. Extragerea nesupravegheată a frazelor cheie 
elimină nevoia de date de antrenament. Ea abordează problema dintr-un unghi diferit. În loc să 
încerce să înveţe caracteristici explicite care caracterizează expresiile cheie, algoritmul TextRank 
exploatează structura textului în sine pentru a determina expresiile cheie care apar „centrale” 
pentru text, în acelaşi mod în care PageRank selectează paginile web importante. Amintiţi-vă că 
acest lucru se bazează pe noţiunea de „prestigiu” sau „recomandare” din reţelele sociale. În acest 
fel, TextRank nu se bazează deloc pe date de antrenament anterioare, ci mai degrabă poate fi rulat 
pe orice bucată de text arbitrară şi poate produce rezultate pur şi simplu pe baza proprietăților 
intrinseci ale textului. Astfel algoritmul este uşor de portat în noi domenii şi limbaje. 

TextRank [13] este un algoritm de clasare bazat pe grafice de uz general pentru NLP. În 
esență, rulează PageRank pe un grafic special conceput pentru o anumită sarcină NLP. Pentru 
extragerea frazelor cheie, construiește un grafic folosind un set de unităţi de text ca noduri. 
Muchiile se bazează pe o anumită măsură a asemănării semantice sau lexicale între nodurile 
unităţii de text. Spre deosebire de PageRank, marginile sunt de obicei nedirecționate şi pot fi 
ponderate pentru a reflecta un grad de similitudine. Odată construit graficul, acesta este folosit 
pentru a forma o matrice stocastică, combinată cu un factor de amortizare (ca în „modelul de surfer 
aleatoriu”), iar clasificarea peste noduri este obținută prin găsirea vectorului propriu corespunzător 
valorii proprii | (adică, distribuţia staţionară a mersului aleator pe grafic). 

Nodurile ar trebui să corespundă cu ceea ce vrem să clasăm. Potenţial, am putea face ceva 
similar cu metodele supravegheate şi am crea un nod pentru fiecare unigramă, bigramă, trigramă 
etc. Cu toate acestea, pentru a menţine graficul mic, autorii decid să clasifice unigramele 
individuale într-un prim pas, apoi să includă un al doilea pas care îmbină unigramele adiacente 
bine clasate pentru a forma expresii cu mai multe cuvinte. Acest lucru are un efect secundar frumos 


de a ne permite să producem fraze cheie de lungime arbitrară. De exemplu, dacă clasificăm 
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unigramele şi constatăm că „procesare” „avansat”, „limbaj” şi „natural” obţin toate ranguri înalte, 
atunci ne-am uita la textul original și vom vedea că aceste cuvinte apar consecutiv şi creează în 
final expresia cheie folosind toate patru împreună. Reţineți că unigramele plasate în grafic pot 
fi filtrate printr-o parte a vorbirii. Autorii au descoperit că adjectivele şi substantivele sunt cele mai 
bune de inclus. Astfel, unele cunoștințe lingvistice intră în joc în acest pas. 

Marginile sunt create pe baza apariţiei simultane a cuvintelor în această aplicație a 
TextRank. Două noduri sunt conectate printr-o muchie dacă unigramele apar într-o fereastră de 
dimensiune N în textul original. N este de obicei în jur de 2-10. Astfel, „natural” şi „limbaj” ar 
putea fi legate într-un text despre NLP. „Natural” şi „procesare” ar fi, de asemenea, conectate, 
deoarece ambele ar apărea în acelaşi șir de N cuvinte. Aceste margini se bazează pe noţiunea de 
„coeziune a textului” şi pe ideea că cuvintele care apar unul lângă altul sunt probabil legate într- 
un mod semnificativ şi se „recomandă” reciproc cititorului. 

Deoarece această metodă clasifică pur şi simplu nodurile individuale, avem nevoie de o 
modalitate de a limita sau de a produce un număr limitat de fraze cheie. Tehnica aleasă este să 
setați un număr T să fie o fracțiune specificată de utilizator din numărul total de noduri din grafic. 
Apoi, nodurile/unigramele de sus T sunt selectate pe baza probabilităților lor staționare. Se aplică 
apoi un pas de postprocesare pentru a îmbina instanţele adiacente ale acestor unigrame T. Ca 
rezultat, vor fi produse mai multe sau mai puţine expresii cheie finale, dar numărul ar trebui să fie 
aproximativ proporțional cu lungimea textului original. 

Inițial, nu este clar de ce aplicarea PageRank unui grafic de co-ocurenţă ar produce expresii 
cheie utile. O modalitate de a gândi la asta este următoarea. Un cuvânt care apare de mai multe ori 
într-un text poate avea mai mulți vecini concomitenți. De exemplu, într-un text despre învăţarea 
automată, unigrama „învăţare” poate apărea împreună cu „mașşină”, „supravegheată”, 
„nesupravegheată” şi „semi-supravegheată” în patru propoziţii diferite. Astfel, nodul „învăţare” ar 
fi un „hub” central care se conectează la aceste alte cuvinte modificatoare. Rularea 
PageRank/TextRank pe grafic are probabil ca „învăţare” să se claseze foarte bine. În mod similar, 
dacă textul conţine expresia „clasificare supravegheată”, atunci ar exista o margine între 
„supravegheat” şi „clasificare”. Dacă „clasificarea” apare mai multe alte locuri şi, prin urmare, are 
mulți vecini, importanţa sa ar contribui la importanța „supravegheată”. Dacă ajunge la un rang 


înalt, va fi selectat ca una dintre primele T unigrame, împreună cu „învăţare” şi probabil 
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„clasificare”. În pasul final de post-procesare, vom ajunge apoi cu expresii cheie „învăţare 
supravegheată” şi „clasificare supravegheată”. 

Pe scurt, graficul de co-ocurenţă va conține regiuni dens conectate pentru termeni care apar 
des şi în contexte diferite. O plimbare aleatorie pe acest grafic va avea o distribuție staţionară care 
atribuie probabilităţi mari termenilor din centrele clusterelor. Acest lucru este similar cu paginile 
web dens conectate care sunt clasate foarte bine de PageRank. Această abordare a fost utilizată şi 


în rezumarea documentelor, analizată mai jos. 


TextRank şi LexRank 


Abordarea nesupravegheată a rezumatului este, de asemenea, destul de asemănătoare în 
spirit cu extragerea nesupravegheată a frazelor cheie şi ocoleşte problema datelor costisitoare de 
antrenament. (1) Unele abordări de rezumare nesupravegheate se bazează pe găsirea unei 
propoziţii „centroid”, care este vectorul cuvântului mediu al tuturor propozițiilor din document. 
Apoi propoziţiile pot fi clasificate în funcție de asemănarea lor cu această propoziţie centroid. 

O modalitate mai bazată pe principii de a estima importanța propoziției este utilizarea 
mersurilor aleatorii şi a centralității vectorului propriu. LexRank [14] este un algoritm în esență 
identic cu TextRank şi ambii folosesc această abordare pentru rezumarea documentelor. Cele două 
metode au fost dezvoltate de grupuri diferite în același timp, iar LexRank s-a concentrat pur și 
simplu pe rezumat, dar puteau fi la fel de uşor utilizate pentru extragerea expresiilor cheie sau 
orice altă sarcină de clasare NLP. 

Atât în LexRank, cât şi în TextRank, un grafic este construit prin crearea unui nod pentru 
fiecare propoziție din document. 

Marginile dintre propoziţii se bazează pe o formă de similitudine semantică sau de 
suprapunere a conţinutului. În timp ce LexRank foloseşte asemănarea cosinus a vectorilor TF-IDF, 
TextRank folosește o măsură foarte similară, bazată pe numărul de cuvinte pe care două propoziţii 
le au în comun (normalizate de lungimea propoziţiilor). Lucrarea LexRank a explorat utilizarea 
marginilor neponderate după aplicarea unui prag valorilor cosinus, dar a experimentat și utilizarea 
marginilor cu ponderi egale cu scorul de similaritate. TextRank foloseşte scoruri de similaritate 


continue ca ponderi. 
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În ambii algoritmi, propoziţiile sunt ordonate prin aplicarea PageRank la graficul rezultat. 
Un rezumat se formează prin combinarea propoziţiilor de top, folosind un prag sau o lungime 
limită pentru a limita dimensiunea rezumatului. 

Merită remarcat faptul că TextRank a fost aplicat rezumatului exact aşa cum este descris 
aici, în timp ce LexRank a fost folosit ca parte a unui sistem de sumarizare mai mare (MEAD) care 
combină scorul LexRank (probabilitate staţionară) cu alte caracteristici precum poziția şi lungimea 
propoziției folosind o combinaţie liniară cu greutăți specificate de utilizator sau reglate automată. 
În acest caz, ar putea fi necesare unele documente de instruire, deși rezultatele TextRank arată că 
funcțiile suplimentare nu sunt absolut necesare. 

O altă distincție importantă este că TextRank a fost folosit pentru rezumarea unui singur 
document, în timp ce LexRank a fost aplicat pentru rezumarea mai multor documente. Sarcina 
rămâne aceeaşi în ambele cazuri - doar numărul de propoziţii din care să alegeți a crescut. Cu toate 
acestea, când rezumaţi mai multe documente, există un risc mai mare de a selecta propoziții 
duplicat sau extrem de redundante pentru a le plasa în acelaşi rezumat. Imaginaţi-vă că aveţi un 
grup de articole de ştiri despre un anumit eveniment și doriţi să realizaţi un rezumat. Este posibil 
ca fiecare articol să aibă multe propoziţii similare şi aţi dori să includeți numai idei distincte în 
rezumat. Pentru a rezolva această problemă, LexRank aplică o etapă de post-procesare euristică, 
care creează un rezumat adăugând propoziţii în ordinea clasamentului, dar renunță la orice 
propoziţii care sunt prea asemănătoare cu cele deja plasate în rezumat. Metoda utilizată se numeşte 
Cross-Sentence Information Subsumption (CSIS). 

Aceste metode funcționează pe baza ideii că propoziţiile „recomandă” cititorului alte 
propoziţii similare. Astfel, dacă o propoziţie este foarte asemănătoare cu multe altele, va fi probabil 
o propoziție de mare importanță. Importanţa acestei propoziţii provine şi din importanța 
propozițiilor care o „recomandă”. Astfel, pentru a obţine o poziție superioară şi plasată într-un 
rezumat, o propoziţie trebuie să fie similară cu multe propoziţii care sunt, la rândul lor, similare cu 
multe alte propoziţii. Acest lucru are sens intuitiv şi permite aplicarea algoritmilor oricărui text 
nou arbitrar. Metodele sunt independente de domeniu şi uşor de portat. Ne-am putea imagina 
caracteristicile care indică propoziții importante în domeniul ştirilor putând varia considerabil față 
de domeniul biomedical. Cu toate acestea, abordarea nesupravegheată bazată pe „recomandări” se 


aplică oricărui domeniu. 
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